Day21: 利用Prompt 打終界龍

2024 iThome 鐵人賽

DAY 21

AI/ ML & Data

軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹系列第 21 篇

16th鐵人賽 llm chatbot prompt engineering

渴望脫魯的SWE

2024-10-05 07:41:20

655 瀏覽

分享至

萬物皆可Prompt，但你有想過可以透過Prompt來玩麥塊(MineCraft)嗎?

多倫多大學開發了一個名為STEVE-1的模型，這是一個能夠在Minecraft中根據文本指令進行操作麥塊中的 Steve。這個模型利用了預訓練的影片模型（Video Pretraining，VPT）和MineCLIP，展示了除了使用文字當作指令，如何通過影片作為指令調整來實現連續決策(Policy)任務。

他們的方法包括兩個主要步驟：

適應預訓練的VPT模型：使其能夠在MineCLIP的潛在空間中跟隨命令。
訓練一個先驗模型：從文本預測潛在代碼，並通過自我監督的行為克隆和事後標記來微調VPT。

STEVE-1除了可以使用文字Prompt來控制Steve外

輸入Prompt(砍樹、放火把)來控制Steve

也可以以圖像、影像當作Prompt來控制Steve

STEVE-1可以根據影像裡的動作去控制Steve執行做一模一樣的行為

更可以依據Prompt來建立一提示鏈(Prompt Chaining)

比如說"Build a tower(建一座塔)"，STEVE-1可以聯想到為了建塔，要先蒐集土
可以建立一個提示鏈Gather dirt -> Build a tower

STEVE-1只花費了60美元的計算成本(個人覺得應該要更高)，能夠在Minecraft中根據文本和視覺指令完成各種短期任務，遠遠超過了之前的基準，且在Demo影片中，Steve的動作是連續且連貫的，光下一個”Get seeds”指令，Steve不只是去蒐集一個種子而已，它反而會不斷的在周圍進行探索。這項研究展示了AI在遊戲中的巨大潛力，看來用LLMs打終界龍再也不是夢想了。

Reference.
STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
NeurIPS site
NeurIPS paper
Project site